Traditional machine learning follows a close-set assumption that the training and test set share the same label space. While in many practical scenarios, it is inevitable that some test samples belong to unknown classes (open-set). To fix this issue, Open-Set Recognition (OSR), whose goal is to make correct predictions on both close-set samples and open-set samples, has attracted rising attention. In this direction, the vast majority of literature focuses on the pattern of open-set samples. However, how to evaluate model performance in this challenging task is still unsolved. In this paper, a systematic analysis reveals that most existing metrics are essentially inconsistent with the aforementioned goal of OSR: (1) For metrics extended from close-set classification, such as Open-set F-score, Youden's index, and Normalized Accuracy, a poor open-set prediction can escape from a low performance score with a superior close-set prediction. (2) Novelty detection AUC, which measures the ranking performance between close-set and open-set samples, ignores the close-set performance. To fix these issues, we propose a novel metric named OpenAUC. Compared with existing metrics, OpenAUC enjoys a concise pairwise formulation that evaluates open-set performance and close-set performance in a coupling manner. Further analysis shows that OpenAUC is free from the aforementioned inconsistency properties. Finally, an end-to-end learning method is proposed to minimize the OpenAUC risk, and the experimental results on popular benchmark datasets speak to its effectiveness.
translated by 谷歌翻译
Precision-Recall曲线(AUPRC)下区域的随机优化是机器学习的关键问题。尽管已经对各种算法进行了广泛研究以进行AUPRC优化,但仅在多Query情况下保证了概括。在这项工作中,我们介绍了随机AUPRC优化的一次性概括中的第一个试验。对于更庞大的概括范围,我们专注于算法依赖性概括。我们目的地都有算法和理论障碍。从算法的角度来看,我们注意到,仅当采样策略偏见时,大多数现有随机估计器才会偏向,并且由于不可兼容性而不稳定。为了解决这些问题,我们提出了一个具有卓越稳定性的采样率不变的无偏随机估计器。最重要的是,AUPRC优化是作为组成优化问题配制的,并提出了随机算法来解决此问题。从理论的角度来看,算法依赖性概括分析的标准技术不能直接应用于这种列表的组成优化问题。为了填补这一空白,我们将模型稳定性从实例损失扩展到列表损失,并弥合相应的概括和稳定性。此外,我们构建状态过渡矩阵以描述稳定性的复发,并通过矩阵频谱简化计算。实际上,关于三个图像检索数据集的实验结果谈到了我们框架的有效性和健全性。
translated by 谷歌翻译
近年来,已取得了巨大进展,以通过半监督学习(SSL)来纳入未标记的数据来克服效率低下的监督问题。大多数最先进的模型是基于对未标记的数据追求一致的模型预测的想法,该模型被称为输入噪声,这称为一致性正则化。尽管如此,对其成功的原因缺乏理论上的见解。为了弥合理论和实际结果之间的差距,我们在本文中提出了SSL的最坏情况一致性正则化技术。具体而言,我们首先提出了针对SSL的概括,该概括由分别在标记和未标记的训练数据上观察到的经验损失项组成。在这种界限的激励下,我们得出了一个SSL目标,该目标可最大程度地减少原始未标记的样本与其多重增强变体之间最大的不一致性。然后,我们提供了一种简单但有效的算法来解决提出的最小问题,从理论上证明它会收敛到固定点。五个流行基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
由于课堂之间不可避免的语义歧义,TOP-K错误已成为大规模分类基准测试的流行指标。有关TOP-K优化的现有文献通常集中于TOP-K目标的优化方法,同时忽略了度量本身的局限性。在本文中,我们指出,顶级目标缺乏足够的歧视,因此诱导的预测可能使完全无关的标签成为最高等级。为了解决此问题,我们开发了一个新颖的度量标准,名为Top-K曲线(AUTKC)下的部分区域。理论分析表明,AUTKC具有更好的歧视能力,其贝叶斯最佳分数函数可以在条件概率方面给出正确的顶级排名。这表明AUTKC不允许无关标签出现在顶部列表中。此外,我们提出了一个经验替代风险最小化框架,以优化拟议的指标。从理论上讲,我们提出(1)贝叶斯最佳分数函数的渔民一致性的足够条件; (2)在简单的超参数设置下对类不敏感的概括上限。最后,四个基准数据集的实验结果验证了我们提出的框架的有效性。
translated by 谷歌翻译
众所周知,深度学习模型容易受到对抗性例子的影响。现有对对抗训练的研究已在这一挑战中取得了长足的进步。作为一个典型的特征,他们经常认为班级分布总体平衡。但是,在广泛的应用中,长尾数据集无处不在,其中头等级实例的数量大于尾巴类。在这种情况下,AUC比准确度更合理,因为它对课堂分布不敏感。在此激励的情况下,我们提出了一项早期试验,以探索对抗性训练方法以优化AUC。主要的挑战在于,积极和负面的例子与目标函数紧密结合。作为直接结果,如果没有数据集进行全面扫描,就无法生成对抗示例。为了解决此问题,基于凹入的正则化方案,我们将AUC优化问题重新制定为鞍点问题,该问题将成为实例函数。这导致端到端培训方案。此外,我们提供了提出的算法的收敛保证。我们的分析与现有研究不同,因为该算法被要求通过计算Min-Max问题的梯度来产生对抗性示例。最后,广泛的实验结果表明,在三个长尾数据集中,我们的算法的性能和鲁棒性。
translated by 谷歌翻译
ROC曲线(AUC)下的面积是机器学习的关键指标,它评估了所有可能的真实正率(TPR)和假阳性率(FPRS)的平均性能。基于以下知识:熟练的分类器应同时拥抱高的TPR和低FPR,我们转向研究一个更通用的变体,称为双向部分AUC(TPAUC),其中只有$ \ Mathsf {Tpr} \ ge ge ge ge \ alpha,\ mathsf {fpr} \ le \ beta $包含在该区域中。此外,最近的工作表明,TPAUC与现有的部分AUC指标基本上不一致,在该指标中,只有FPR范围受到限制,为寻求解决方案以利用高TPAUC开辟了一个新问题。在此激励的情况下,我们在本文中提出了优化该新指标的第一个试验。本课程的关键挑战在于难以通过端到端随机训练进行基于梯度的优化,即使有适当的替代损失选择。为了解决这个问题,我们提出了一个通用框架来构建替代优化问题,该问题支持有效的端到端培训,并深入学习。此外,我们的理论分析表明:1)替代问题的目标函数将在轻度条件下实现原始问题的上限,2)优化替代问题会导致TPAUC的良好概括性能,并且具有很高的可能性。最后,对几个基准数据集的实证研究表达了我们框架的功效。
translated by 谷歌翻译
对象目标视觉导航是一项具有挑战性的任务,旨在仅根据其视觉观察来指导机器人找到目标对象,并且该目标仅限于训练阶段中指定的类。但是,在实际家庭中,机器人可能需要处理许多对象类,并且在培训阶段,所有这些类都很难包含。为了应对这一挑战,我们通过将零照片学习与对象目标视频导航相结合,提出了一个零摄像的对象导航任务,该目标旨在指导机器人找到属于新颖类的对象而无需任何培训样本。这项任务导致需要将学习的政策推广到新颖的班级,这是使用深度强化学习的对象导航问题较小的问题。为了解决这个问题,我们利用“阶级无关”的数据来减轻培训阶段中指定的类过度拟合的输入。与类无关的输入包括检测结果和单词嵌入的余弦相似性,并且不包含任何与类相关的视觉特征或知识图。在AI2 Thor平台上进行的广泛实验表明,我们的模型在可见和看不见的类中都优于基线模型,这证明我们的模型对类别的敏感性较小,并且可以更好地概括。我们的代码可在https://github.com/pioneer-innovation/zero-sero-shot-object-navigation上找到
translated by 谷歌翻译
基于方面的情感分析(ABSA)是一项精细的情感分析任务,旨在使特定方面的情感极性推断对齐方面和相应的情感。这是具有挑战性的,因为句子可能包含多个方面或复杂(例如,有条件,协调或逆境)的关系。最近,使用图神经网络利用依赖性语法信息是最受欢迎的趋势。尽管取得了成功,但在很大程度上依赖依赖树的方法在准确地建模方面的对准及其单词方面构成了挑战,因为依赖树可能会提供无关的关联的嘈杂信号(例如,“ conj”之间的关系“ conj”之间的关系。图2中的“伟大”和“可怕”。在本文中,为了减轻这个问题,我们提出了一个双轴法意识到的图形注意网络(BISYN-GAT+)。具体而言,bisyn-gat+完全利用句子组成树的语法信息(例如,短语分割和层次结构),以建模每个方面的情感感知环境(称为内在文章)和跨方面的情感关系(称为跨性别的情感)称为Inter-Contept)学习。四个基准数据集的实验表明,BISYN-GAT+的表现始终超过最新方法。
translated by 谷歌翻译
图表卷积网络(GCN)显示了探索图形表示的显着潜力。然而,GCN聚合机制无法通过异常概括到网络上的网络,其中大多数节点具有来自不同类别的邻居,该邻居通常存在于现实网络中。为了使GCN的传播和聚合机制适合于粗源性和异常的(甚至它们的混合物),我们将块建模引入GCN的框架,以便它可以实现“块导向的分类聚合”,并自动学习不同类别邻居的相应聚合规则。通过将块建模掺入聚合过程中,GCN能够根据其同音程度判别歧视来自同性恋和异交邻居的信息。我们将我们的算法与最先进的方法进行了比较了异证问题。经验结果证明了我们在异交数据集中现有方法的新方法的优越性,同时在同性恋数据集中保持竞争性能。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译